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+ Redes Neurais + Neurônio Natural 


, = Um neurônio simplificado: 
= Sistemas distribuídos inspirados no 


cérebro humano 

m Compostas por várias unidades de 
processamento (“neurônios”) 

m Interligadas por um grande número de 
conexões (“sinapses”) 


= Eficientes em várias aplicações 


Dendritos 
Axônio 


Sinapse 
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+ Neurônio artificial + Conceitos básicos 


= Modelo de um neurônio abstrato « Principais aspectos das RNA 


Entradas Pesos Saída = Arquitetura 


= Unidades de processamento (neurônios) 
= Conexões 
+” fts = Topologia 


= Aprendizado 
——————»> = Algoritmos 


Sinal = Paradigmas 
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+ Unidades de processamento + Conexões 


= Funcionamento Defi ua t5 
= Recebe entradas de conjunto de unidades A e eanem Some nENronIga cStao 


= Aplica função sobre entradas interligados 
= Envia resultado para conjunto de unidades B = Codificam conhecimento da rede 
= Entrada total Xm=) = Tipos de conexões: 
; X MD = Excitatória: (wt) > 0) 
u=D xw, E mm) = Inibitória: (wylt) <0) 
E Xi) 
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+ Topologia + Topologia 


, = Arranjo das conexões 
= Número de camadas 


= Uma camada (Ex Perceptron, Adaline) 





= Multi-camadas (Ex MLP, RBF) mo e 
EE - E - EE - Feedforward Recorrente 


Completamente Parcialmente 'Localmente 
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+ Aprendizado + Aprendizado 


= Algoritmos de aprendizado = Paradigmas de aprendizado 
= Como a RNA se relaciona com o ambiente 
externo 
= Principais tipos 
= Supervisionado 
= Não supervisionado 
= Reforço 
= Híbrido 


= Conjunto de regras bem definidas para 
ensinar a rede a resolver um dado problema 
= Principais grupos 
= Correção de erro 
= Hebbiano 
= Competitivo 
= Termodinâmico (Boltzmann) 
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+ Tipos de atributos + Perceptron 


= Redes Neurais trabalham apenas com 
números 
= Não aceitam dados categóricos 


= Precisam ser convertidos Pitts 
n Dificuldade para lidar diretamente com = Formularam matematicamente neurônios 


imagens naturais 
= Precisa ser pré-processadas = Rede mais simples para classificação de 
padrões linearmente separáveis 


= Desenvolvida por Rosemblat, 1958 
= Utiliza modelo de neurônio de McCulloch- 
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+ Perceptron + Perceptron 


= Resposta / saída da rede 


a Supenisionado = Aplica função limiar sobre soma total de 
= Correção de erro entrada recebida por um neurônio 
= Ww(t)= wi(t-1) + Aw; f(u-0) 
= AW;=Tx(y — 00) 
= Induz hipótese ou função f(x) 
= Rosemblat provou teorema de convergência +lifu>0 


= Se é possível induzir um classificador um conjunto Hu)= IM ifu<0 f(u-9) = sinal (u-0) 
de entradas, uma rede Perceptron induzirá f(x) = f(u-0) 


= Treinamento 


u-0 
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+ Algoritmo de treinamento + Exemplo 


= Dada uma rede Perceptron com: 


= Três entradas, pesos iniciais w, = 0.4, w, = 
-0.6 e w; = 0.6, e limiar (viés) 0 = 0.5: 
= Ensinar a rede com os exemplos (001, -1) e 
(110, +1) 
=» Utilizar taxa de aprendizado n = 0.4 


= Definir a classe dos exemplos: 111, 000, 100 e 
011 
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+ Exemplo + Exemplo - treinamento 


a) Treinar a rede 
a.1) Para o exemplo 001 (y=-1) 
Passo 1: definir a saída da rede 
u-9 = -1(0.5) + 0(0.4) + 0(-0.6) + 1(0.6) = 0.1 
: a f(x) = +1 (uma vez 0.1 >0) 
Situação Passo 2: atualizar pesos (y = h(x)) 


desejada wo= 0.5 + 0.411 -(+1) = 1.3 
w= 0.4+0.40X-1-(+1)= 0.4 
ea wo = -0.6 + 0.4(0)(-1 - (+1)) = -0.6 
o w; = 0.6+0.4(D(-1 -(+1))= -0.2 
Viés 
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+ Exemplo - treinamento + Exemplo - treinamento 


a) Treinar a rede a) Treinar a rede 
a.2) Para o exemplo 110 (y=+1) a.3) Para o exemplo 001 (y="-1) 
Passo 1: definir a saída da rede Passo 1: definir a saída da rede 
u-9 = -1(1.3) + 1(0.4) + 1(-0.6) + 0(-0.2) = -1.5 u -6 = -1(0.5) + 0(1.2) + 0(0.2) + 1(-0.2) = -0.7 
f(x) = -1 (uma vez -1.5 < 0) f(x) = -1 (uma vez -0.7 < 0) 


Passo 2: atualizar pesos (y x f(x)) Passo 2: atualizar pesos (y = f(x)) 
1.3 + 0.4(-1)(1 - (-1)) = 0.5 Como y = f(x), os pesos não precisam ser 
0.4 + 0.4(1)1 -(-1) = 1.2 modificados 
-0.6 + 0.4(1)1 - (-1)) = 0.2 
Q -0.2 + 0.4(0)(1 - (-1)) = -0.2 
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+ Exemplo - treinamento + Exemplo - teste 


a) Treinar a rede = Utilizar a rede treinada para classificar 
a.4) Para o exemplo 110 (y =+1) os exemplos 111, 000, 100 e011 


Passo 1: definir a saída da rede 
u-9 = -1(0.5) + 1(1.2) + 1(0.2) + 0(-0.2) = +0.7 
f(x) = +1 (uma vez 0.7 > 0) 


Passo 2: atualizar pesos (y = f(x)) 
Como y = f(x), os pesos não precisam ser 
modificados 
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+ Exemplo - teste + Exemplo - teste 


b) Testar a rede b) Testar a rede 


b.1) Para o exemplo 111 b.3) Para o exemplo 100 
u-9 = -1(0.5) + 1(1.2) + 1(0.2) + 1(-0.2) = 0.7 u-9 =-1(0.5) +1(1.2) + 0(0.2) + 0(-0.2) = 0.7 
f(x) = 1 (porque 0.7 >0) ) => classe +1 f(x) = 1 (porque 0.7 >0) > classe +1 


b.2) Para o exemplo 000 b.4) Para o exemplo 011 
u-9 = -1(0.5) + 0(1.2) + 0(0.2) + 0(-0.2) = -0.5 u-6 =-1(0.5) + 0(1.2) + 1(0.2) + 1(-0.2) = -0.5 
f(x) = -1 (porque -0.5 < 0) > classe -1 f(x) = -1 (porque -0.5 < 0) > classe -1 
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+ Exercício + Exercício 


= Seja o seguinte cadastro de pacientes: = Ensinar uma rede do tipo Perceptron a 
distinguir: 
= Pacientes potencialmente saudáveis 
= Pacientes potencialmente doentes 
= Testar a rede para novos casos 
= (Luis, não, não, pequenas, sim) 
= (Laura, sim, sim, grandes, sim) 
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4 Problemas com Perceptron + Rede Multi-Layer Perceptron 


= Arquitetura de RNA mais utilizada 
= Uma ou mais camadas intermediárias de neurônios 
= Funcionalidade 
= Uma camada intermediária: qualquer função contínua 


ou Booleana 
= Duas camadas intermediárias: qualquer função 


a” = Originalmente treinada com o algoritmo 


Backpropagation 
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MLP e Backpropagation 4 Backpropagation 


O ni = Treina a rede com pares entrada-saída 
camada de camada = Cada vetor de entrada é associado a uma saída 
entrada de desejada 


saída = Treinamento em duas fases, cada uma 
percorrendo a rede em um sentido 


= Fase forward > Sinal (forward) 


= Fase backward — 19º k 
sie 
e 
E so e 


<————— Erro (backward) 
32 
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Backpropagation + Backpropagation 


= Procura reduzir os erros cometidos pela = Procura reduzir os erros cometidos pela 
rede rede 
= Utiliza erro para ajustar valor dos pesos = Utiliza erro para ajustar valor dos pesos 
= Erro de cada neurônio = Erro de cada neurônio 
= Camada de saída = Camada de saída 
= Saída desejada - saída produzida = Saída desejada - saída produzida 
= Camadas intermediárias ??? = Camadas intermediárias 


= Proporcional aos erros dos neurônios da camada 
seguinte conectados a ele 
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+ Backpropagation + Backpropagation 


= Treinamento = Ajuste dos pesos 
= Supervisionado = 4W, =X, 
= Procura na superfície de erro onde o valor do ferro; se j for camada de saída 
erro é mínimo 8= 
= Gradiente 


f p3 wyô, se jfor camada intemediária 
1< 

erro; =-50, =f0),) 
1 


= Se f for uma função sigmoidal, f(x) = fo)(I-fb) 
= Treinamento não é garantido de convergir 
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+ Backpropagation + Treinamento 


= Função de ativação Repita 
= Não linear ero=0 


= Diferenciável, contínua e, geralmente, não Fara cada pardo ireimamento (1,0) 

decrescente Para cada camada k := 1a N 

Para cada neurônio j := 1a M, 
O] Sigmoidal Calcular a saída fifx) 
fo) = NI +eK) (sigmoid logística) SER N 
Ro] . gs Calcular soma dos erros de seus neurônios 
nf) = (1-6) (tangente hiperbólica) Seerro> £ 
(1 +60) Para cada camada k := N a 1 
Para cada neurônio j:= 1 a M, 


Atualizar pesos 








Até erro < £ (ou número máximo de ciclos) 
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+ Treinamento modificando pesos + Treinamento modificando pesos 


camadas camadas 


intermediári intermediári 
termediárias termediárias camada 


saída 


camada de camada camada de 
entrada de entrada Vos A 


S 

EGP 4 fa 
NS TAS PSA 
Casos A 
conexões ” N 
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+ Treinamento modificando pesos + Treinamento modificando pesos 


camadas camadas 
intermediárias intermediárias 
camada camada de 


camada de d 
entrada Is entrada 
saída 


Na 


camada 
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+ Treinamento modificando pesos + Treinamento modificando pesos 


camadas camadas 


intermediári intermediári 
termediárias termediárias camada 


de 


camada de camada camada de 


entrada entrada 


V$L 
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+ Treinamento modificando fronteiras 
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+ Exercício 


= Paridade 


= Uma das limitações do Perceptron 
levantadas por Minsky e Papert 


= Problema difícil 


= Padrões mais semelhantes requerem 
respostas diferentes 


= Usa n unidades intermediárias para 
detectar paridade em vetores com n bits 
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Regiões convexas 


à 


Fechada Fechada Fechada 
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+ Exercício 


Dada a rede abaixo, que recebe como entrada um vetor 
binário de n bits e gera como saída um valor binário: 

a) Indicar a função implementada pela rede abaixo: 

b) Explicar papel de cada neurônio no processamento da função 


Considerar função de 
ativação limiar (threshold) 
entrada/saída binária 
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A Classe À 4 Classe À 
O Classe B O Classe B. 
oo o oo o 























q 
Vs 
DA 
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Combinações de regiões Combinações de regiões 
convexas + convexas 


= Encontrar fronteiras de decisão que separem = Encontrar fronteiras de decisão que separem 
os dados abaixo: os dados abaixo: 


ADA A 
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+ Exercício + Unidades intermediárias 


= Quantas camadas e pelo menos quantos nodos ; : gs 
em cada camada possui a rede que divide o E Numero de camadas intermediárias 
espaço de entradas das formas abaixo: necessarias 
= Funcionalidade desejada 


= Número de neurônios por camada 
= Distribuição dos dados 


= Early stop 


E classe 1 classe 1 = Poda 
classe 2 B classe 2 
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+ Ajuste dos pesos + Variações do backpropagation 


= Por exemplo (online) = Momentum 
= Por ciclo (batch) = Quickprop 
= Após apresentação de todos os exemplos de = Newton 


treinamento (ciclo) = Levenberg Marquardt 
= Melhor alternativa depende da aplicação = Super Self-Adjusting Backpropagation 


= Weight decay (superSAB) 
= Métodos de gradiente conjugado 
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+ Backpropagation Momentum + Deep Networks 


= Treinamento = Redes neurais em geral têm 1 ou 2 
= Supervisionado camadas intermediárias 
= wi(bD= wi(t-1) + Aw; + momentum = Mais camadas levam a soluções pobres 
= AW;; = NX0; = Complexidade em teoria de circuitos 
ú psi a(wi(t-1) - wi(t-2)) = Sugere que arquiteturas produndas podem 
ser muito mais eficientes 


= Quando tarefa é complexa e existem dados 
suficientes para capturar essa complexidade 


= Necessidade de algoritmos apropriados 
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+ Deep Networks + Outras redes 


= Abordagens para treinamento = Adaline 


= Adicionar camadas construtivamente = RBF 


= Cada camada transforma entrada da camada 
anterior = SOM 


= Torna tarefa de aprendizado cada vez mais fácil = GNG 

= Utilizar aprendizado não suprevisionado = ART 
para cada camada = TDNN 
= Treinar a rede toda de uma vez = SVM? 
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+ Máquinas de Vetores de Suporte (SVMs) + Máquinas de Vetores de Suporte (SVMs) 


= Baseadas na Teoria do Aprendizado 
Estatístico Rede Neural 
= Vapnik e Chervonenkis em 1968 
= Estratégia básica 
= Encontrar um hiperplano que maximize 
margem de separação (margem larga) 
= Distância a um conjunto de “vetores de suporte” 


= Reduz erro de generalização 
» Minimização do risco estrutural 
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+ Máquinas de Vetores de Suporte (SVMs) + Variáveis de folga 


Vetores de suporte 
(T.7)+b=0 “os pontos críticos” 


= Slack variables 


Marsem pe E sHiperplano separador 
8 ótimo 
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+ Máquinas de Vetores de Suporte (SVMs) + Fronteiras mais complexas 
= Problemas lineares 


= Generalização para problemas não lineares 


= Mapeamento de dados de entrada para um espaço de 
maior dimensão utilizando funções kernel 


o 
[éd) 









































Espaço de entradas Espaço de características 
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+ Conclusão + Perguntas 


= Redes Neurais 
= Sistema nervoso 
= Muito utilizadas em problemas reais 
= Várias arquiteturas e algoritmos 
= Magia negra 
= Caixa preta 
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